郭书谏,沈骑:智慧城市建设中的语言服务
第3期
2021年
专题
研究
中国城市化进程中的语言
作者
简介
郭书谏
同济大学助理教授,主要研究方向为语言规划学和语料库。
沈 骑
同济大学教授,主要研究方向为语言规划和语言安全。
智慧城市建设中的语言服务
郭书谏,沈 骑
(同济大学 外国语学院 上海 200082)
提 要 智慧城市是当前城市建设和发展的重要趋势。当前智慧城市语言服务具有语言服务数据化、计算机中介交流普遍化和人机耦合三大特征。语言数据对智慧城市建设具有重要作用,但受限于政府重视程度不够、人才培养、行业标准和立法限制等问题,仍然是城市大数据的孤岛。故需创新人才培养模式,增强语言数据收集、研究、使用的制度设计,鼓励语言数据在智慧城市建设中的研究和应用。同时,语言产业的一系列转型,要求进一步关注、研究这一过程中数字化鸿沟、垄断、机会不公平等可能存在的问题。应重视语言服务“技术化”,同时坚守价值评判的“人文性”,关注城市市民特别是弱势人群的数字化生存处境。
关键词 智慧城市;语言数据;语言产业;语言规划;语言服务
一、引 言
智慧城市(Smart City)最早由国际商业机器公司(IBM)提出,旨在应用技术手段让城市更加高效地运行,节约资源并改善市民生活质量(许晔,郭铁成2014)。近10年来,智慧城市在中国的发展方兴未艾,日益成为未来城市建设的重要方向。习近平总书记指出:“我们要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务、建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”[1]建设新型智慧城市成为新时期城市建设和社会治理的战略方向。
数据是智慧城市建设的核心要素。王静远等(2014)认为建设智慧城市是未来现代化城市的发展方向,以数据为中心的技术是支撑智慧城市建设的技术基础。然而较为遗憾的是,无论在以《河北雄安新区规划纲要》为代表的政府规划文件中,还是在互联网技术公司的智慧城市建设方案中,智慧化的语言服务都未能纳入智慧城市建设。从华为技术有限公司和京东数字科技集团等机构提供的最新资料看,语言数据并没有得到充分重视。[2]鉴于此,作为一项探索性研究,本文主要关注以下几个问题:
在智慧城市建设过程中,语言服务的发展现状如何?
存在哪些困境和问题?
可以采取哪些措施加以改善?未来研究需要关注哪些方面?
二、智慧城市语言服务的基本内涵
语言服务是“利用语言(包括文字)、语言知识、语言技术及语言的所有衍生品来满足语言生活的各种需要”(李宇明2014,2016)。近年来语言服务的相关研究日益受到关注,大致可分为应用语言学和翻译研究两大流派,但内容相对零散,实证研究较少(仲伟合,许勉君2016)。有学者将语言服务细分为语言翻译服务、语言教育服务、语言支持服务以及特殊行业领域的语言服务,认为其基本属性包括“服务性、规约性与主导性”(屈哨兵2007)。王海兰(2018:60)进一步认为语言服务涵盖了语言规划服务、语言咨询服务、语言教育和培训服务等十大内容,提出新形势下城市公共语言服务面临的五大问题和十大任务,当前“农民涌入城市,西部人口流入东部,国外人员来到中国,城市成为一个城乡文化、中外文化混合的区域”。城市的语言服务既是一项需要满足不同人群生活需求的公共服务,同时也是城市和社会治理中需要关注的问题。
近20年来,“语言服务”的定义经历了由狭义到广义的发展。早期的“语言服务”多指语言标识、翻译等以信息转换为基本任务的狭义范畴(张伟,郑中原2004)。而后“语言翻译服务、语言教育服务、语言支持服务、特殊行业领域的语言服务”等被纳入研究范围(屈哨兵2010)。陈鹏(2016)认为语言服务包含“语言教学、笔译、口译、语言技术工具、字幕翻译和配音、软件本地化和网站全球化、会议组织及咨询等”。新冠疫情暴发以来,应急语言服务也被纳入语言服务的研究范畴之中,得到普遍关注(王辉2020)。
本文论述基于较为广义的语言服务定义,既包括狭义的以信息转化为主要目标的翻译等内容,也包含语言教育服务,以及普通话推广、地方语言保护等政府语言规划等项目。与过去的城市语言服务不同,智慧城市的语言服务更加依靠新技术解决城市语言管理中的问题,以实现相应目标。智慧城市建设对城市语言服务和规划提出了新的要求。语言服务效率的高低、覆盖面的大小、技术和智慧化水平的高低,影响着城市居民生活的便捷度和服务的可得性。近10年来智慧城市的发展,使得政务、金融、医疗等各项城市服务数据互通,基本实现了可共享的城市大数据底座。但在城市大数据中,语言数据的应用仍然受到局限。本文探讨的语言数据界定为3类:个人的语言使用和语言能力情况调查数据(包括普通话、方言、外语的使用能力和学习年限)、文字化的语料(比如社交网络中每个人的语料、学术研究收集的特定任务语料等)、语音语料(比如智能客服语料、语音导航语料等)。有学者认为,语言数据是数据这一生产要素的组成部分,也与其他一些生产要素发生各种各样的关系(李宇明2020)。在大数据时代,数据为语言学家提供了新的研究范式(刘海涛,林燕妮2018),研究者应该重视语言作为数据如何从理论到实践层面参与智慧城市建设。
三、智慧城市语言服务发展现状
相较于传统的城市语言服务,智慧城市的语言服务具备以下新的特征。
第一,语言数据的重要性凸显。在智慧城市中,由于算力和数据的大规模增长,语言不仅是传统意义上个人发出的声音或者文字符号,还可以以语料数据的形式存在(Agerri et al. 2015)。语料数据显示出大数据的4V特征(Katal et al. 2013):规模性(volume),多样性(variety),价值性(value),变化性(velocity)。以智能客服为例,通过计算机技术,大量的人工客服语料得以被机器学习,形成语言模型,实现数据化和行业应用。以信息导览服务为例,不再依靠人以自然语言介绍的方式进行,而是将数据存储在服务器中,借助智能手机等终端作为入口,通过二维码扫码、图像识别等方式与人进行交互。而过去为了满足国外游客获取交通、地名等信息的需求,城市必须借助标牌上的语言翻译为国际旅客提供必要的导览服务。
第二,计算机中介交流的普遍化。由于机器和人同时成为了语言生产和传播的主体,计算机扮演了人与人交流的中介(Kerr & Hiltz 2013)。以电子商务企业的语言服务为例,过去许多由人工承担的信息导览、会务等服务,被计算机和机器人取代。在部分场景中,尽管客户仍然是与人工客服进行沟通,但也是借助电脑、智能手机等终端进行。与过去面对面的语言服务相比,现在的语言服务人员通常集中于客户服务中心,集中管理培训,通过计算机与不同地区的客户进行交流。
第三,语言服务全过程由计算机和人共同参与配合,具有“人机耦合”的特征(刘庆峰2018;余玉秀2019)。随着技术进步,机器通过算法和数据加工,处理、运算语言数据生成的自然语言成为人机交互的界面(Gorecky et al. 2014)。以口译为例,传统意义的口译员基于自身的专业素质和经验进行翻译。随着科大讯飞等一系列基于自然语言处理和人工智能的口译服务产品推出,口译员与计算机协同配合,共同完成口译任务。以景区导览为例,过去游客只能寻求多语导游的帮助以实现信息获取,现在借助技术手段,人们可以通过扫描二维码,获取不同语言的导览语音,结合位置数据甚至能够自动获取对应的内容。人只需在产品开发、项目部署、管理、运营和维护中发挥作用,而具体的语言服务则由机器开展。
在移动互联网、智能手机、云计算和自然语言处理等新技术的加持下,智慧城市的语言服务在过去10年间诞生了不少服务商,催生了语言服务产业的智慧化业态转型。我们选取了其中3个较为具有代表性的案例加以研究。
案例一:驴迹科技为代表的智慧导览。借助“驴迹导游”移动应用程序(APP),用户通过智能手机扫描二维码可获取不同语言的电子导览服务,此举可以替代人工导览和景区信息介绍。同时,在数据后台,政府和主管部门可以通过用户扫码后的各种选项和操作、浏览顺序、点击量等数据,了解人流趋势、兴趣热点和行动轨迹,从而更加科学地规划城市、建设景区、设置线路和调度交通工具。以信息导览为代表的语言服务具有高度的重复性和相似性,机器完成这些任务更加高效。导览服务即时记录和汇总相关数据,可为城市和景区管理者决策提供依据。
案例二:语言服务机器人。语言服务机器人能够提供翻译、导览、咨询、引导等多种服务和保障。在第二届中国国际进口博览会中,除了传统的翻译员,场馆内增设了中英双语的“进宝”机器人为参观人员和参展商提供翻译服务(邹娟2019)。与人工译员相比,尽管机器人目前在复杂翻译任务的译文准确性上仍然不及人工翻译,但对于常规翻译任务,机器人能够全天候、无休息地提供服务,满足日常语言翻译和信息呈现需求。
案例三:云翻译。以翻易通、365翻译、译云、Trycan和金译通为代表的云翻译服务商是智慧城市中新的语言服务提供者。与传统的翻译公司相比,云翻译提供商能够通过人机协同的方式提供更加高效、精准和更具价格优势的翻译服务。个人或者企业客户通过网络下单,提出相应的需求,由服务商的译员和机器协作共同满足客户的翻译需求。
通过上述案例可以发现,智慧城市的语言服务具有“人机耦合”的特征:传统由人进行的语言服务,向着人机交互的方式转变。信息导览、客服、翻译等大规模、重复性的服务内容,逐步通过训练语言数据和机器学习实现,但是语言机器模型的研发、部署、管理、执行、监督、维护等过程仍然需要人的主导。以智慧导览为例,系统的搭建、二维码的生成和导览语音数据的准备处理,都需要人工研发、部署和管理,后期系统产生的游览量、行程线路等相关数据也都需要人的分析和决策。语言服务机器人虽然部分替代了重复性的服务,但是许多复杂服务仍然需要人的协作,同时机器人的研发、迭代、部署和管理都需要人的参与。由于计算机并不能直接参与处理自然语言,因此各种语言服务中所用到的自然语言必须加以数字化,语言数据的重要性凸显。以表2为例,相较于传统服务,数字化方案需要人工将传统服务流程化和数字化,为计算机准备足够的专用语料,通过机器学习、算法训练等过程,逐步实现数字化。
在智慧城市的语言服务过程中,人的角色和知识结构发生了转变,未来高度重复性的语言服务劳动可能由机器提供。人只需要承担产品研发和部署、数据收集和分析、项目决策和管理等需要创新和创造力的职责。人和机器相互协同配合,从而更好地实现语言服务的智慧化。语言服务业将从劳动密集型,逐步向科技密集型产业转变。以导览为例,过去需要百人团队才能服务的景区和街区,随着智慧城市建设的发展,未来可能仅需10余位人员负责系统的部署和维护。智慧城市和信息化建设的迅速发展,对语言类专业人才的知识结构和能力素质提出了许多新的要求。未来,城市语言专业人才不仅需要有扎实的语言基础,也需要具备一定的数据知识和运用技术工具解决实际问题的能力。
相较传统的语言服务,上述智慧化的解决方案,在服务部署、管理和效率上具有一定的优势。自然语言作为交互界面的重要性逐步减弱,正在被二维码、智慧终端等取代。不过智慧城市中不少公共服务的“智慧化”程度还远远不够。新冠疫情暴发以来,城市健康卫生公共服务的智慧化得到了广泛重视,以健康码为代表的健康卫生服务在全国范围内广泛推行。由于语言服务的欠缺,以健康码为代表的健康卫生智慧服务缺乏相应的导览和说明,客观上形成了众多老年人城市生活的“数字化鸿沟”(彭兰2020)。当前城市的各项服务都在以前所未有的速度实现信息化和升级更新,智慧金融、智慧交通、智慧医院等城市服务都面临着交互过程中语言服务的欠缺。目前语言服务的智慧化解决方案主要体现在文化、旅游、翻译、交通等领域,对于金融、医疗、政务等场景,更高程度的智慧服务依然缺少相应的解决方案。
四、智慧城市语言服务建设的困境
尽管智慧城市语言服务近年来发展迅猛,但也存在着不少局限。主要体现在语言数据的孤岛问题、语言人才的知识结构问题和语料数据的法律限制三大方面。
第一,语言数据的孤岛问题。尽管近年来智慧城市的大数据基础设施建设不断深化,与其他类型的数据如交通、人流、物流、资金流等数据相比,城市人口的语言类调研数据仍然属于数据孤岛(高丰2015),尚未纳入城市管理大数据平台。例如,中国家庭追踪调查(CFPS)中具有语言相关的数据和字段,但在一网通办等智慧城市的大数据平台中,却很少包含个人的普通话能力、外语能力、方言类型等数据。这些个人的语言能力数据对于城市语言管理具有重要作用,不仅应该在人口普查等各类调查中进行数据收集,也应该将其纳入智慧城市建设的数据库之中。
第二,语言人才的知识结构问题。智慧城市语言服务存在人才供需的结构性失衡,现有语言人才的培养模式难以适应智慧城市的语言服务需求。长期以来由于语言类学科传统上被定义为文科,语言学科注重语言能力和人文素养,对于数学思维和技术能力等方面的培养显得不足。由于语言服务的智慧化转型,许多重复性的劳动都由机器替代人工。以景区为例,在数字化的信息导览服务部署之后,已不需要安排专职的外语导游,而是需要能够熟练应用相关信息系统,同时兼具一定语言服务能力的人才。
第三,基于特定任务的大规模高质量语料相对缺乏。相比于其他类型的大数据(如人脸、交通、物流、订单等),由于存在保护用户隐私方面的限制,语音语料数据的收集受到了更加严格的监督。许多智慧化语言服务的不断迭代优化,如智能客服、机器翻译、人工导览等都需要大规模、高质量的语料和不断强化的算法,但受限于语料数据,不少课题研究面临着“巧妇难为无米之炊”的困境。[3]此外,由于学科定位、研究传统的差异,语言学科和计算机学科之间的数据难以共享互通。语言类学科语料库研究是“在数字化时代对(美国)结构主义语言学的续写,以及对功能语言学的发扬”(许家金2017),主要目的在于发现语言的结构性、功能性特征。而自然语言处理、计算语言学所谓语料库更多出于具体问题和任务的目的,收集特定语料(宗成庆2008)。不同学科产生的语料之间难以实现跨学科共享和协同。
上述问题,一方面凸显出政府和企业在智慧城市建设的决策过程中,不太重视语言数据的收集和应用;另一方面,语言数据自身也存在结构化程度不足、应用范围窄、收集困难等现实困境。如何更好地应用语言数据,运用新技术,推动语言服务的智能化、产业化、规模化,提高城市语言管理和服务水平,成为当前需要研究的重点。
五、智慧城市语言服务建设的对策
面对上述难题,我们认为应该从如下3个方面予以应对。
第一,政策制定者、研究者和建设者应该重视个人语言调查数据在城市管理中的重要作用。重视语言的习得、使用、能力等情况,不仅是对语言本身的关注,更是对与语言密切联系的身份认同、文化资源的管理。不仅应该在人口调查和家庭情况调查中增加与语言相关的统计字段(如普通话水平、方言使用情况、外语习得水平和年龄等),而且要将调查数据纳入城市市民的数据集合中。城市语言规划应该向着数据化、动态化方向发展,根据城市市民语言大数据,更加科学有效地制定政策,改变当前个体语言使用和能力数据作为数据孤岛或者数据缺失的现状。
第二,推进智慧城市建设,培养适应智慧时代发展的语言人才,需要打破学科壁垒,推动融合发展(戴炜栋,等2020)。应以新文科的发展趋势和要求,用AI赋能语言学科知识体系(蔡三发,等2020)。在新文科建设的背景下,融合发展并非简单的过去“外语+专业”的复合型人才培养方式,而是在培养过程中强调技术意识、工具意识和数据意识。在掌握语言技能和知识的大前提下,能够具备运用技术工具、处理语言数据、创造性地解决理论和现实问题的能力(刘海涛,林燕妮2018),这符合新文科的发展趋势和要求。图1显示了智慧城市语言服务对人才的具体需求。
智慧化的语言服务人才体现了跨学科、多学科交叉协同解决问题的特点。图1显示:(1)具备高水平语言交际能力的人才能够发挥自己的特长,在语言交际、需求沟通等方面发挥作用;(2)人才应该了解数据科学,具备一定的数据处理能力,适应语言建模、数据分析和语料库建设与维护的工作;(3)人才应该具有项目管理能力,在项目流程、人员管理和决策部署方面能够推进相应建设;(4)人才应该具备产品开发能力,这种能力当前主要是由计算机科学学科来培养。如图2所示,整个智慧化语言服务项目从用户需求分析到流程梳理、原型开发、调试修改、部署测试以及最终服务推广,需要不同学科知识、不同能力和素质的团队合作。除了产品开发、测试、部署等环节需要专业技术人才的参与,其他环节语言人才都能够参与其中。适应智慧城市乃至智慧时代发展的语言人才,应该在具备良好语言交际能力的基础之上,具备相应的技术思维和实践经验,从而增强适应性,提高解决问题的能力。这一响应技术变革的学科诉求并非要求语言类专业人才放弃语言能力的本位,而是在满足语言技能学习之外提升技术思维、工具技能和数据处理能力,从而使得语言专业学生不再局限于语言技能,而是具有一定的数据思维、技术能力和实践方法,能够适应新的包括智慧城市建设在内的各项新时代建设需求。
第三,语言数据乃至智慧语言服务的发展,需要有更加系统化、制度化的顶层设计和创新。语言服务的智慧化依赖自然语言处理技术的进步,而算法的创新需要有足够多的数据支持。在缺乏语料数据的情况下,许多研究和应用都难以展开。在数据收集和处理方面,需要改变当前语料数据的零散化和局限性,建立和完善语料数据的国家标准或者行业标准,[4]开发具有自主知识产权的大规模多语种平行语料库建设、管理、维护工具,建设标准化的语料研究的托管中心。应减少重复劳动,促进学术研究对接产业需求,让语言数据向着标准化、大规模、可移植、可复用的方向发展,转变现有分散化、难应用、功能单一的现状。
六、智慧城市的语言服务发展前景
随着新技术的不断发展,语言服务未来会向着更加智能化和集中化的方向发展。“智能化”指的是科技在语言服务中所起的作用将更加显著,以信息技术为驱动,机器和人员共同为城市市民提供语言服务。“集中化”指的是语言服务产业集中度增强,由于技术和资本的集中化,少数科技企业有能力重构产业链,为全国乃至全球提供特定类型的语言服务。
以翻译产业为例,近年来越来越多的大型信息技术服务商进入翻译市场,提供机器翻译和人工翻译等服务。与过去的中小型翻译公司、个人工作室相比,大型IT企业运用项目管理、语音识别、计算机辅助翻译、机器翻译等技术,不断优化业务流程,提高业务效率。未来的翻译服务将是在科技公司组织下,依靠少数精通专门语言的翻译服务人员,在计算机翻译系统的支持下,满足市场需求。以景区导览为例,近年来一些科技企业以手机应用的形式为千万用户提供全国2万余个景区的导览服务。在语言教育领域,部分科技公司的产品能够为全国的儿童语言学习提供相应服务。
通过上述案例可以发现,过去的语言产业从业者如翻译、导游、教师等,在新技术和智慧化的变革之下,不再以分散的个人的方式提供服务,而是成为科技企业重构的语言服务产业链的一部分。相较于过去的语言服务,这一变革从宏观视角具有经济和技术层面的巨大优势。在云计算、大数据等新技术加持下,语言服务从未有像今天这样轻松易得,便宜高效。但是转型也带来了资源机会的不平衡、垄断、失业等一系列问题。在某些领域,对技术的差别化利用在不同人群之间划出了“数字化鸿沟”:年轻群体、中产群体等能够更好地学习和掌握技术服务的人群能够获得相应服务,而老年人、贫困群体难以获得相应服务。由于技术发展带来的产业和服务转型引起的社会公平问题,值得做进一步的实证调查和研究。
在智慧化、技术化程度日益加深的时代,城市语言服务的智慧化转型不仅是一个技术问题,也是一个具有人文性的课题。语言学科对于智慧城市的研究不仅应该从计算语言学、语料库等“技术视角”切入(冯志伟2018),还应该从社会语言学和语言规划等“人文视角”,研究语言智能对不同人群的影响。在智慧化转型的过程中如果只关注技术指标和经济效益,可能造成只重视通用语和强势语言的数字化,导致语言服务逐步向着标准化、单语化发展,引起城市语言生态的单一化。同时,人群对于技术变革的接受度和可得性存在差异,人文研究应该特别关注人在智慧化时代的生存状态和处境。应警惕工具理性和技术思维的单向度价值体系,保持人文精神的批判性,为政府决策和城市建设提供多元化的视角和声音。
七、结 语
智慧城市建设的开展向语言服务、语言数据、语言管理等领域的理论和实践提出了新的要求,展现了新的机遇。随着智慧城市建设的深入,语言服务的数字化转型不断发展,智慧导览、云翻译、语言服务机器人等领域已经产生一系列相应的产品和成果,语言数据对于智慧城市建设的重要意义逐步显现。但是,受限于语言人才、行业标准、立法规范等难点,智慧城市的语言服务仍然面临着不少困难。推进智慧城市建设,培养适应智慧城市发展的语言人才,需要强调打破学科壁垒,推动融合发展;创新人才培养方式;建立和完善语料的国家标准或者行业标准;开发具有自主知识产权的工具,出台相应的法律意见。与此同时,应该关注和研究语言服务智慧化过程中的产业转型和由此带来的数字化鸿沟、资源机会不公平、垄断等问题。智慧城市的语言服务研究在重视语言服务技术化的同时,也应该坚守价值评判的人文性,关注城市市民特别是弱势群体的数字化生存处境。
注释:
[1] 习近平2016年10月9日在十八届中央政治局第三十六次集体学习时的讲话,https://www.xuexi.cn/lgpage/detail/index.html?id=12120204051435812113&item_id=12120204051435812113。
[2] 参见《华为智慧城市顶层规划咨询方法论白皮书》,https://e.huawei.com/cn/material/industry/fda6b69cb88544ff97a74fde4ee
82cd3;《城市操作系统v2.0白皮书》,https://storage.jd.com/icity-backend/5533d996acfe466497a661ef3a5f951e.pdf。
[3] 孙茂松在2016年机器智能前沿论坛(MIFS)上的演讲:《当巧妇遇到“大米”——机器翻译启示录》,https://www.sohu.com/a/126757306_505819。
[4] 如2020年,《GB/T 38667-2020》《GB/T 38673-2020》等12项大数据国家标准发布。
参考文献从略,如有需要请参照原文。
相关推荐
我刊入编《中文核心期刊要目总览》2020年版语言、文字类核心期刊!
喜讯!我刊入选人大《复印报刊资料重要转载来源期刊(2020年版)》!
董洁:从“农民工”到工人——城市化进程中流动人口的语言身份认同
· 专题研究约稿启事 ·
“语言与乡村振兴” “语言与健康” “世界语言生活” “城乡语言变异研究”